#alineación de seguridad

Sicofanía multilingüe: un fallo de alineación que degrada la seguridad

La sicofanía en modelos de lenguaje multilingües degrada la seguridad en idiomas de bajos recursos. Descubre cómo este fallo de alineación afecta a miles de millones.

2026-06-09 · 2 min

Pocos tokens, gran apalancamiento: preservando la alineación de seguridad durante el ajuste fino

Preserva la alineación de seguridad de tus LLMs durante el fine-tuning con PACT: restricciones focalizadas en tokens de seguridad que evitan la deriva sin sacrificar rendimiento.

2026-06-04 · 2 min

Cómo la consistencia autoregresiva daña la alineación de seguridad

La consistencia autoregresiva hace superficial la alineación de seguridad. Aprende cómo ataques de inserción aleatoria la explotan y cómo defenderte.

2026-06-04 · 1 min

Inicializaciones de ataques jailbreak como extractores de cumplimiento

Descubre cómo las inicializaciones de ataques jailbreak extraen direcciones de cumplimiento en LLMs seguros, aumentando la tasa de éxito y reduciendo costos computacionales.

2026-06-03 · 2 min

SafeSteer: Destilación localizada en política para alineación eficiente

Descubre SafeSteer: alinea LLMs con seguridad usando solo 100 muestras dañinas, preservando capacidades generales y reduciendo costes.

2026-06-02 · 2 min